重磅!Mistral 发布Large 2 123B大模型PK Meta王炸,网友:疯了疯了都疯了
我们可能正在见证一场AI界的地震。
不是地震,是特么的海啸!
昨天Meta发布的Llama 3.1 还没消停,就在刚刚,法国AI公司Mistral又杀出来,宣布了自家Large 2 123B大作!
这次新模型可是下了血本啊:
123B参数,比上代70B足足翻了近一倍
128K上下文窗口,长文处理不在话下
支持11种语言,包括中文、日语、韩语等
训练了80+种编程语言,连Swift和Fortran都有
原生支持函数调用和结构化输出
看到这些参数,有网友直呼:
那些疯狂的开源混蛋真要赢了哈哈哈哈,这是最好的时间线!
从官方放出的性能数据来看,这次真有点东西:
MMLU:84.0% vs 79.3% (70B) vs 85.2% (405B)
HumanEval:92% vs 80.5% (70B Ins) vs 89% (405B Ins)
GSM8K:93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)
也就是说,在某些任务上,这个123B的模型已经能和Llama 3 405B掰掰手腕,几乎平手了!
有网友看到这个结果直接惊呼:
改个许可证你就偷走了Meta的整个策略。值了。
不过话说回来,对硬件要求也是杠杠的:
fp16/bf16:约250GB显存
fp8/int8:约125GB显存
int4:约60GB显存
昨天刚被Meta 炸,今天又被Mistral 震,网友真的麻了,称:
这是我试图跟上开源AI最新进展的样子
除了常规的NLP任务,这次Mistral还在代码生成上下了大功夫。
从上面可以看出,在代码生成方面,新模型甚至超过了GPT-4!
有网友对此表示期待:
Mistral的前作Codestral Mamba就很强,这次的Large 2肯定会在复杂代码生成上更厉害。
在数学推理方面,新模型也有不俗表现。GSM8K和MATH两个基准测试上,都和顶级模型不相上下。
除了性能,Mistral还特别强调了模型的指令跟随能力和对话能力。
从MT-Bench、Wild Bench和Arena Hard这几个基准测试上看,新模型在这方面也是相当能打。
不过Mistral还特别提到了一点:
在某些基准测试中,生成较长的回复往往会提高分数。然而,在许多商业应用中,简洁至关重要 - 简短的模型生成有助于更快的交互,并且在推理方面更具成本效益。
在MT Bench基准测试的问题上,Mistral Large 2的平均生成长度明显短于其他模型。
这一点确实很有意思。毕竟在实际应用中,又快又准才是王道。
在多语言能力方面,新模型也是相当给力:
从多语言MMLU基准测试结果来看,Mistral Large 2在各个语种上都有不错表现,尤其是在法语、德语和西班牙语上。
最后,在工具使用和函数调用方面,新模型也是下足了功夫:
可以看到,Mistral Large 2在这方面甚至了GPT-4和Claude 3!至于有没有超过Llama 3.1,估计是时间撞车了,没来得及评吧!
看到这里,有网友调侃道:
Llama 3.1,接好我的啤酒...
确实,这波Mistral来得又快又猛,Meta这边估计得加把劲儿了。
不过也有网友表示担心:
把许可证改成Apache 2.0或类似的,你就赢了。
毕竟目前Mistral Large 2是在Mistral Research License下发布的,这个许可证只允许研究和非商业用途。
总的来说,这次Mistral的新作确实又双叒叕一次给开源AI界带来了巨大震动。
有网友直呼:
7月似乎是开源的好月份!
确实,从Llama 3到Mistral Large 2,再到之前的Claude 3,这波AI界的"夏日大狂欢"真是一波未平一波又起啊!
而网友 弗洛里安 S @airesearch12 在惊呼:
太棒了!Meta发布Llama 3.1的一天后!🔥
的同时也不忘手动艾特一波OpenAI:
@OpenAI 赶紧发布GPT-5吧,如果你们真的有的话(我开始怀疑了——越来越觉得你们只是把它改名为GPT-4o,因为它不够强大)。
看来,Sam Altman 是该努力一把了!
那么问题来了,你更看好哪家呢?
欢迎在评论区留言讨论~
相关链接
[1] https://mistral.ai/news/mistral-large-2407/
[2] https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本。
每天挖掘出10+ 热门的/新的 github 开源 AI 项目
每天转译、点评 10+ 热门 arxiv AI 前沿论文
星球非免费。定价99元/年,0.27元/天。
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!